从什么都不会到QLoRA分布式DPO(二)1 引言 之前已经知道最小化训练了。最小化确实是最小,一是没有日志去支撑分析,二是在单卡运行一个很小的模型在结果验证上也差强人意。 所以本文就如何验证模型训练效果以及量化配置两个方面,在原有代码基础上进一步展开。 2 什么是wandb wandb https://wandb.ai/ 是一个在线平台,...